class: center, middle, inverse, title-slide # Visualización y Análisis en
## Sesión II ### Javier Tamayo Leiva
### Pontificia Universidad Católica de Valparaíso ### Junio 22, 2021 --- <style> .title-slide { background-size: 30%; background-position: center left; } .fa { vertical-align: middle; } .center2 { margin: 0; position: absolute; top: 50%; left: 50%; -ms-transform: translate(-50%, -50%); transform: translate(-50%, -50%); } body { text-align: justify; } .title-slide h1 { color: #F2EAD0; font-size: 90px; # font-family: "blacksword"; } .title-slide, .title-slide h2, .title-slide h3 { color: #FFF9F2; # font-family: 'Cormorant Garamond', serif; } .remark-slide-number { position: inherit; } .remark-slide-number .progress-bar-container { position: absolute; bottom: 0; height: 4px; display: block; left: 0; right: 0; } .remark-slide-number .progress-bar { height: 100%; background-color: #F2CB07; } .left-code { color: #777; width: 38%; height: 92%; float: left; } .right-plot { width: 60%; float: right; padding-left: 1%; } </style> ## Análisis exploratorio de datos (*Exploratory data analysis*) .pull-left[ ### Estadística descriptiva - {gtsummary} package <br><br> - Visualizando distribuciones <br> - `stat_summary()` <br> - Boxplot <br> - Histograms, Density plot<br> - q-q plots<br> - Heatmaps <br> - {ggpubr} package <br><br> - Análisis de normalidad <br> - Shapiro–Wilk test <br><br> - Análisis de Homocedasticidad <br> - Bartlett’s test <br> - Levene’s test <br> - Fligner-Killeen test <br> ] .pull-right[ ### Inferencia Estadística - Análisis de correlación <br> - Pearson's *r* <br> - Spearman's *ρ* (rho) <br> - Kendall's *τ* (tau) <br><br> - Reducción de dimensión <br> - Análisis de componentes principales (*PCA*) <br><br> - Modelos Liniales <br> - `lm()` <br><br> - Análisis de varianza <br> - F-test <br> - ANOVA test <br> - Kruskal-Wallis test <br><br> - {report} package <br> ] --- ## Dependencias de esta clase ```r # Instalar desde CRAN (The Comprehensive R Archive Network) install.packages("tidyverse") install.packages("ggplot2") install.packages("gtsummary") install.packages("flextable") ``` ```r # Cargar desde la librería library(tidyverse) library(ggplot2) library(gtsummary) library(flextable) ``` --- class: inverse center middle # Análisis exploratorio de datos <br> --- ## Análisis exploratorio de datos El análisis exploratorio de datos o “EDA” (por sus siglas en inglés **E**xploratory **D**ata **A**nalysis), es como se conoce -en estadística- el proceso por el cual un investigador inspecciona un set de datos con la finalidad de generar preguntas, procesar y adquirir conocimiento (procesa datos, genera resultados), y refina o genera nuevas preguntas. <br> ### Proceso 1. Generar preguntas basandose en los datos. <br> 1. Obtener resultados (procesa datos, gráficos, modelos, etc.). <br> 1. Refinar preguntas y/o generar nuevas preguntas. <br><br> Si bien el nombre puede generar la impresión de un proceso estandarizado, en la práctica no hay reglas que limiten los análisis o técnicas utilizadas para generar el proceso iterativo. Sin embargo, existen análisis que se vuelven recurrentes durante el proceso. <br> .footnote[Análisis exploratorio de datos [(EDA) R4DS-ES](https://es.r4ds.hadley.nz/análisis-exploratorio-de-datos-eda.html)] --- class: inverse center middle ## Estadística descriptiva --- ## Los datos (ggplot2::mpg)
Datos de economía de combustible de 1999 a 2008 para 38 modelos populares de automóviles <br> --- ## paquete-**gtsummary** ```r # Instalar desde CRAN (The Comprehensive R Archive Network) install.packages("gtsummary") # Instalar la versión beta desde GitHub install.packages("remotes") remotes::install_github("ddsjoberg/gtsummary") # Para guardar tablas en formato PDF, Word o PowerPoint # Instalar desde CRAN (The Comprehensive R Archive Network) install.packages("flextable") # Instalar la versión beta desde GitHub devtools::install_github("davidgohel/flextable") ``` ```r # Cargar desde la librería library(gtsummary) library(flextable) ``` .footnote[[{gtsummary}](http://www.danieldsjoberg.com/gtsummary/index.html) package] --- ## Resumir data con **gtsummary** ```r mpg2 <- mpg %>% select(class) # Seleccionar solo columnas "class" desde mpg. Se pueden seleccionar # varias columnas en "select()". Ej select(class, year, ...) # También se pueden usar todas las columnas sí se saltan este paso. tbl_summary(mpg2) %>% modify_header(label = "**Samples**") # Resumir data ```
Samples
N = 234
1
class
2seater
5 (2.1%)
compact
47 (20%)
midsize
41 (18%)
minivan
11 (4.7%)
pickup
33 (14%)
subcompact
35 (15%)
suv
62 (26%)
1
n (%)
--- ## Resumir data con **gtsummary** ```r # Crear tabla resumen mpg %>% tbl_cross(row = year, col = class) %>% bold_labels() ```
Characteristic
class
Total
2seater
compact
midsize
minivan
pickup
subcompact
suv
year
1999
2
25
20
6
16
19
29
117
2008
3
22
21
5
17
16
33
117
Total
5
47
41
11
33
35
62
234
<br> ```r # Guardar en formato Word mpg %>% tbl_cross(row = year, col = class) %>% bold_labels() %>% as_flex_table() %>% flextable::save_as_docx(path = "./mpg.docx") # Nombre y ruta al documento Word a crear ``` .footnote[[{gtsummary}](http://www.danieldsjoberg.com/gtsummary/reference/index.html) package reference] --- class: inverse center middle ## Estadística descriptiva ### Visualizando distribuciones --- --- --- --- class: inverse center middle ## Estadística descriptiva ### Análisis de normalidad --- --- --- --- class: inverse center middle ## Estadística descriptiva ### Análisis de Homocedasticidad --- --- class: inverse center middle ## Inferencia Estadística ---